其他
“新石油”开发记⑤:隐私计算,离改变“游戏规则”还差耐心与时间
编者按:已然来临的数字时代,数据是核心驱动要素。围绕数据的开发利用,一场新的生产与认知革命正在展开。想要了解这个时代,必须要先认识数据。21世纪经济报道准备了数据要素市场系列报道,以期为行业和社会公众提供理解数据的敲门砖。
两位富翁相遇,都觉得自己比对方有钱,有没有办法不说出自己的真实身价,却能比出个高下?
这是首位获得图灵奖的华人科学家、中国科学院院士姚期智在40年前提出的著名的“百万富翁”问题。如今,这个问题已被隐私计算解决。
对于与上述问题存在相似困境、正在兴起的数据资产与数字市场来说,隐私计算的意义可以用“颠覆性”来形容。因为它解决了数据交易中一个最为核心的、曾经似乎无法两全的问题——既想使用数据、结果,又要保护数据中包含的隐私。
在隐私技术的蓬勃发展之下,隐私与数据流动这对“鱼与熊掌”如今可以兼得了。
更完整的称谓应该是“隐私保护计算”
何为隐私计算?在中国信通院云计算与大数据研究所和隐私计算联盟联合发布的《隐私计算应用研究报告(2022年)》中,隐私计算的定义为在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算,保障了数据在产生、存储、计算、应用、销毁等各个环节的“可用不可见”,有效提取数据要素价值的一类信息技术。
外行人乍一听隐私计算,觉得像是拿隐私来做计算,会认为这是一项偏负面的技术。实际上,数牍科技高级总监李宗勇向21世纪经济报道强调:“隐私计算更完整的称呼是‘隐私保护计算’(或隐私增强计算),可在保护隐私的同时对数据进行计算。”
“可用不可见”又该如何理解?华控清交战略总监、标准化负责人王云河举例解释,如果所有数据加上一个常数后再交易,机器将看不到原始数据,但这是“不可见”吗?“我觉得远远不够。因为对于稍有点推测能力的机器而言,很容易推导出原始数据。”他强调,从本质上来讲,“不可见”是指在密码学上的保密性或机密性达到足够强度,推导不出原始数据。“可用”则相较容易理解,指能够计算并输出正确的结果,也就是对数据使用方有价值的结果。
解决数据交易的核心问题:各方互不信任
数据已与土地、资本、劳动力、技术并列成为生产要素,被誉为数字经济时代的“石油”。培育数据要素市场、释放数据更多的价值的前提是实现数据大规模社会化流通,但在实际操作的过程中仍面临许多难题。
数据作为表征现实世界人和客观事物的性质、状态等特征的抽象符号,承载着隐私信息;虽然有的企业数据不具备人格化特征,不能被称之为隐私,但仍负载着商业信息,属于商业秘密。不可避免的,数据的流通和交易会涉及个人隐私或企业商业秘密的安全问题。
数据在计算机和互联网环境中以二进制的形式存在,这种数字化形态对数据流通过程的数据隐私保护形成了主要阻碍。数据提供方一旦将原始数据交予数据使用方,将无法有效管控后者对数据的使用、传播或买卖等行为,相当于丧失数据所有权和控制权,使得数据的价格、可出售次数大打折扣。
多位专家对21世纪经济报道记者表示,这里的核心问题是“信任问题”。
数据流通的理想状态是“我足够信任你,相信你不会作恶,而你用完数据后会妥善保管或销毁数据。”李宗勇强调,而现实中数据在大规模社会化流通中,由于参与方大多相互并不熟知,互不信任,因此需要用技术去建立参与各方之间的信任基础,“与业务无关、相对中立的隐私计算技术就承担了这一角色。”
他还强调,“跨网跨域数据在流通中仅有安全若没有实现数据的价值,那也是没有意义的。隐私计算保证的就是跨网跨域数据在流通融合过程中的隐私安全问题。”
华控清交战略高级总监刘峥也认为,目前来看,基于密码学的隐私计算能够解决在“不相信人”的情况下,让数据规模化的流通、融合、应用,是一个“非常好的解决方案”。
数据交易2.0时代——有价值的不是原始数据 而是计算价值
数据来源于用户,可平台又对数据进行了加工,那加工后的数据权属到底归用户还是平台?其中还涉及到哪些权利?权益该如何分配?这些问题一直悬而未定,制约着数据要素市场的发展。
随着隐私计算逐渐进入商业化落地的阶段,业内称数字交易进入2.0时代——“数据不再以原始数据本身进行流通和交易,而是以反映业务价值的数据融合计算结果来进行流通和交易。这意味着,数据交易的标的从数据直观可见的信息价值转变为融合计算价值,即多方数据通过算法,结合算力进行运算,最后得出计算结果,实现特定业务价值。”李宗勇解释。
平安集团首席科学家肖京认为,在传统的数据交易中,数据交给第三方很容易被复制篡改,导致所有权受到损害。而在隐私计算的支持下,第三方无法获取原始数据。交易标的从信息价值转变为计算价值,“这就相当于把数据的所有权和使用权分开了。”
谈到隐私计算在数据交易中发挥作用的环节,李宗勇表示,隐私计算主要在数据流通和融合的环节发挥作用,是支撑业务实现的技术底座。刘峥进一步解释,“在流通、融合之前需要对数据进行分类分级,凡是涉及个人隐私或商业秘密的数据,都需要经过隐私计算技术的处理。”
“隐私计算是支撑数据交易的核心技术,也是数据服务市场的底层基础设施。”肖京强调。
隐私计算离真正落地还需要时间
目前,业界主流的隐私计算技术主要分为三类:第一类是以多方安全计算为代表的基于密码学的隐私计算技术——姚期智为解答“百万富翁”问题研发出多方安全计算,可在无可信第三方的情况下,多个参与方共同计算一个目标函数,且保证每一方仅获取自己的计算结果,无法通过计算过程中交互数据推测出其他任意一方的输入数据。
第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术——可实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练。
第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术——通过软硬件方法在中央处理器中构建一个安全区域,保证其内部加载的程序和数据在机密性和完整性上得到保护。
那隐私计算到底是如何保护隐私的呢?肖京举例进行了讲解,比如为了实现两方数据相加测算总额,但同时不泄露任何一方的数据,可以将每方的数据分拆后加密(比如100可拆分成70+30,对70进行加密),只传分拆加密后的部分数据给对方,然后在不解密的情况下,使用隐私计算技术,各自方将对方传来的、加密的部分数据和自己未传出的、加密的部分数据相加,得到各自的部分和之后,再传到第三方中控服务器,相加得到最后的总和。这样就在数据不出本地、保证不泄露的情况下,实现了相加测算。
2022年1月,国务院办公厅印发的《要素市场化配置综合改革试点总体方案》中提出,要探索“原始数据不出域、数据可用不可见”的交易范式。
无论是从政策支持还是业界期待来说,隐私计算可谓前景光明,但它能在短时间内撬动数据要素市场吗?
“这还需要一个过程。”王云河表示,目前隐私计算在本领域和信息安全圈相对火爆,但还未“出圈”。数据交易涉及领域、行业众多,隐私计算还需要更多圈层的认知和接受;另外,从“知道到真的敢落地使用,也还有一定的距离”。他强调,这牵涉到政策对隐私计算的态度以及监管对数据流通交易相关红线划定的问题。
除了外部因素,隐私计算自身也存在短板。从上述实例可以看出来,隐私计算技术的算法设计严谨、流程复杂,需要经过大量的加解密过程,这些都是“很耗算力的”。肖京表示,仅联邦学习建模时的单次模式迭代耗时就成指数级增长,“如果不解决算力问题的话,数据交易的市场规模也会受到限制。”他强调。
推荐阅读:“新石油”开发记之一:第五生产要素市场化之路,一场旷日持久的确权大讨论“新石油”开发记之二:数据分类分级--数据资产走进市场的关键一役“新石油”开发记之三:“旧瓶装旧酒”还是摸索中前进?“新石油”开发记之四:数据跨境,鼓励流动无法以让渡安全为代价
END